جداسازی متون چاپی فارسی و لاتین در اسناد دو زبانه با استفاده از پردازش تصویر سند

thesis
abstract

امروزه حجم زیادی از اسناد کاغذی موجود، توسط جاروب گر ها یا دوربین ها به اسناد تصویری دیجیتالی تبدیل می شوند. ذخیره سازی، بازیابی و مدیریت کارآمد این شیوه های تصویری، در بسیاری از برنامه ها نظیر اتوماسیون اداری و کتابخانه های دیجیتالی اهمیت فراوانی دارند. برای تبدیل اسناد تصویری به اسناد متنی از سیستم های تشخیص اپتیکی حروف، ocr، استفاده می شود. سیستم های ocr تابع زبان متن بوده و با توجه به زبان از الگوریتم های متفاوتی استفاده می شود. در سال های اخیر، با توجه به گسترش سیستم های ocr چند زبانه نیاز به ابزارهایی که قادر به تشخیص، بررسی و بازیابی منابع گفتاری و نوشتاری چند زبانه باشند، شدیداً افزایش پیدا کرده است. اما در اسناد چند زبانه اولین مرحله قبل از بازشناسی حروف، تشخیص نوع یا زبان متن است. الگوریتم های مختلفی برای تشخیص نوع یا زبان متن ارائه شده است. در این پروژه ضمن مرور انواع روش های شناسایی نوع زبان متن و بررسی تحقیقات صورت گرفته در این زمینه، دو روش جدید برای شناسایی نوع متون فارسی و لاتین در اسناد چاپی دو زبانه پیشنهاد شده است. با توجه به تفاوت های موجود بین رسم الخط، در دو زبان فارسی و لاتین از جمله پیوستگی حروف در کلمات فارسی در مقابل گسستگی آن در لاتین و استفاده فراوان از خطوط منحنی در فارسی در مقابل خطوط شکسته و مورب در لاتین، به نظر می رسد استفاده از ویژگی انحناء در تمایز بین متونی از این دو زبان موثر واقع شود. بر این اساس در اولین روش پیشنهادی به بررسی ویژگی انحنا در دو رسم الخط فارسی و لاتین پرداخته ایم. نتایج به دست آمده از تفاوت انحناء در این دو دست خط حکایت می کند. در روش پیشنهادی دوم با بهره بردن از خواص دیگر انحناء و نیز برخی ویژگی های شکلی و ساختاری دیگر سعی کرده ایم روش پیشنهادی قبل را تکمیل و عیوب و نواقص آن را برطرف نماییم. در هر دو روش پیشنهادی ابتدا شناسایی را در سطحِ اجزاء متصل انجام داده و سپس نشان داده ایم که با استفاده از شناسایی در این سطح می توان آن را به سطوح بالاتر نیز تعمیم داد، که البته در هر دو روش، بیشتر شناسایی در سطح کلمه مد نظر قرار داشته است. نتایج تجربی و مقایسه الگوریتم های پیشنهادی با سایر روش ها نشان دهنده نتایج مناسب روش های پیشنهادی می باشد.

First 15 pages

Signup for downloading 15 first pages

Already have an account?login

similar resources

پیش پردازش متون چاپی فارسی برای جداسازی حروف

پردازش مستندات یکی از جذاب ترین زمینه های بازشناسی الگو است و بازشناسی متون، محوری ترین بخش در پردازش مستندات است . یکی از مهمترین مراحل بازشناسی متون چاپی فارسی جداسازی حروف است . ما در این پایان نامه با اصلاح الگوریتم عزمی که مبتنی بر کانتور بالایی است ، الگوریتم جداسازی مناسبی برای متون چاپی قدیمی ارائه کرده ایم. برای حل مشکل نایکنواختی کرسی خط، روش مناسبی برای تعیین نوار زمینه پیشتهاد کرده ...

15 صفحه اول

بهبود خلاصه سازی خودکار متون فارسی با استفاده از روش‌های پردازش زبان طبیعی و گراف شباهت

A significant amount of available information is stored in textual databases which contains a large collection of documents from different sources (such as news, articles, books, emails and web pages). The increasing visibility and importance of this class of information motivates us to work on having better automatic evaluation tools for textual resources. The automatic summarization of tex...

full text

طراحی و پیاده‌سازی یک سیستم بازیابی اسناد چاپی فارسی

هدف: معرفی، دسته‌بندی، و نقد پژوهش‌‌ها دربارۀ سیستم‌های بازشناسی و بازیابی اسناد چاپی فارسی و پیشنهاد یک سیستم بازیابی اسناد چاپی با رویکردی نو. روش‌شناسی: شیوه‌ای جدید با رویکرد جداسازی، طراحی و سپس پیاده‌سازی شده است. برای آموزش و آزمایش سیستم، پایگاه داده‌ای شامل تصویر 50 صفحه متن فارسی در 5 قلم مختلف فراهم آمد. از نیمی از این داده‌ها برای آموزش و نیمی...

full text

اثر بربرین در تنظیم آستروسیتهای Gfap+ ناحیه هیپوکمپ موشهای صحرایی دیابتی شده با استرپتوزوتوسین

Background: Diabetes mellitus increases the risk of central nervous system (CNS) disorders such as stroke, seizures, dementia, and cognitive impairment. Berberine, a natural isoquinolne alkaloid, is reported to exhibit beneficial effect in various neurodegenerative and neuropsychiatric disorders. Moreover astrocytes are proving critical for normal CNS function, and alterations in their activity...

full text

اثر بربرین در تنظیم آستروسیتهای Gfap+ ناحیه هیپوکمپ موشهای صحرایی دیابتی شده با استرپتوزوتوسین

Background: Diabetes mellitus increases the risk of central nervous system (CNS) disorders such as stroke, seizures, dementia, and cognitive impairment. Berberine, a natural isoquinolne alkaloid, is reported to exhibit beneficial effect in various neurodegenerative and neuropsychiatric disorders. Moreover astrocytes are proving critical for normal CNS function, and alterations in their activity...

full text

بازشناسی متون چاپی فارسی با استفاده از مدل پنهان مارکوف

این پایان نامه روشی برای بازشناسی متون چاپی فارسی و زبان های دارای الفبای مشابه آن مانند عربی ارائه می دهد. بازشناسی آخرین مرحله در فرآیند ocr است که در آن به وسیله ویژگی های به دست آمده از تصویر، متن موجود در آن تشخیص داده می شود. تصویر مورد استفاده، در مراحل قبل پیش پردازش شده، انواع نویزها و چرخش آن برطرف گشته، و در نهایت دودویی شده است. در این روش، نوع و اندازه قلم یا قلم های استفاده شده در...

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


document type: thesis

وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023